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摘 要 : [目的 /意义 ] 随 着 文化 遗产 数字 化 和 人 文 计算 研究 范式 的 兴起 ,人 文 领域 学 者 在 参与 数字 人 文 研究 过 程 中 对 于 文 
化 遗产 数据 资源 的 利用 需求 日 益 突显 。 多 源 、 异 构 文 化 遗产 信息 资源 的 语义 融合 与 互 操作 成 为 当前 数字 人 文 数 
据 基 础 设施 建设 中 的 关键 问题 ,而 行 之 有 效 的 实体 语义 相似 度 计算 方法 则 成 为 实现 这 一 目标 的 重要 手段 。[ 方 
法 /过程 ] 以 敦煌 壁画 叙 词 表 关联 数据 为 例 ,在 分 析 该 数据 集 本 体 模 型 与 数据 框架 的 基础 上 ,针对 其 内 容 分 布 与 结 
构 特 征 提出 一 种 多 粒度 匹配 与 加 权 运 算 相 结合 的 实体 语义 相似 度 计 算 方法 ,并 选取 敦煌 壁画 叙 词 表 关 联 数 据 中 
“飞天 ”相关 实体 为 实验 对 象 ,引入 属性 特征 、 编 辑 距离 等 多 种 现 有 实体 语义 相似 度 计算 方法 进行 对 比 实验 。[ 结 
果 / 结 论 ] 实验 结果 表明 ,本 文 提出 的 基于 多 粒度 匹配 的 实体 语义 相似 度 计算 方法 ,能 够 更 好 地 适应 敦煌 壁画 叙 词 
表 关 联 数 据 的 内 容 与 结构 特征 ,在 计算 结果 准确 性 方面 比 同类 方法 具有 更 好 的 表现 ,是 推动 数字 人 文 背 景 下 异 构 
人 文 信息 资源 的 数据 互联 与 知识 共享 的 又 一 可 行 思 路 。 
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项 次 化 遗产 数字 化 典型 实践 的 成 功 ,数字 人 文 与 人 文 
计 毕 ( Digital Humanities and Humanities Computing ) 已 
成 田 文 化 遗产 资源 组 织 领域 中 的 新 兴 研 究 主题 ,受到 
学 茎 ,业界 的 广泛 关注 。 数 字 人 文 与 人 文 计算 为 新 技 
术 笑 件 下 文化 遗产 的 数字 化 保护 研究 引入 了 新 的 思维 
模式 ,也 丰富 了 传统 人 文学 者 利用 文化 遗产 数据 资源 
开展 研究 的 应 用 场景 。 与 此 同时 ,强调 在 人 文 研究 中 
力求 过 程 可 重复 .数据 可 验证 方法 可 复 用 、 结 论 可 推 
广 的 数字 人 文 研究 范式 也 对 文化 遗产 数据 资源 的 整 
合 . 建 构 与 组 织 质量 提出 了 更 高 的 要 求 。 数 据 是 人 文 
计算 的 基石 ,文化 遗产 资源 数据 集 的 质量 ,颗粒 度 与 覆 
盖 范围 等 因素 很 大 程度 上 决定 了 依托 其 开展 的 数字 人 
文 研究 的 成 败 、 深 度 与 可 信 度 上 。 多 源 性 ` 异 构 性 是 人 
文 领域 数据 资源 的 典型 特征 ,因此 非 结构 化 数据 向 结 
构 化 数据 的 转化 成 为 数字 人 文 在 数据 基础 设施 建设 中 


的 重要 内 容 , 在 实践 中 这 一 过 程 主要 通过 关联 开放 数 
据 (Linked Open Data) 的 构建 与 发 布 来 实现 ,相关 典型 
案例 包括 Europeana MuseumFinland .中 国家 谱 关 联 数 
据 . 敦 烛 壁 画 叙 词 表 关联 数据 等 。 

截至 目前 ,国内 外 以 关联 数据 支撑 技术 的 文化 遗 
产 信息 资 源 整 合 研 究 已 经 取得 阶段 性 进展 ,以 博物 馆 、 
美术 馆 、 档 案 馆 为 代表 的 各 类 文化 遗产 保存 服务 机 构 
依托 实体 馆藏 开展 数字 化 建设 ,在 线 发 布 了 大 量 的 文 
化 遗产 数据 资源 ,为 相关 领域 研究 者 提供 了 丰富 的 原 
始 资料 , 极 大 地 完善 了 数字 人 文 研究 的 数据 基础 设施 ， 
满足 了 人 文学 者 在 参与 数字 人 文 研 究 过 程 中 对 基础 数 
据 的 需求 。 而 在 初步 解决 了 数据 的 来 源 问题 后 ,数字 
人 文 下 一 步 的 数据 基础 设施 建构 应 当 走 向 高 质量 、 宽 
领域 与 细 粒 度 。 在 相关 研究 日 益 深 入 的 背景 下 ,推动 
文化 遗产 领域 多 源 、 异 构 数 据 集 的 聚合 与 融通 已 成 为 
人 文 信息 资源 服务 走向 语义 化 、 知 识 化 .智能 化 的 必要 
环节 ,而 行 之 有 效 的 语义 相似 度 计算 方法 正 是 完成 这 
一 任务 的 关键 技术 之 一 。 本 文 面向 文化 遗产 领域 数据 
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资源 的 语义 融合 与 互 操作 需求 ,提出 了 一 种 基于 多 粒 


度 算法 由 于 在 度量 粒度 方面 具有 差异 ,因此 各 自 的 适 


度 匹 配 的 实体 语义 相似 度 计算 方 法 ,并 以 “敦煌 壁画 叙 
词 表 关 联 数据 ” 中 “飞天 ”相关 实体 的 语义 相似 度 计 
算 为 例 ,探讨 该 方法 应 用 于 新 阶段 数字 人 文 基础 设施 
融合 建构 的 价值 与 前 景 。 


2 相关 研究 现状 


数字 人 文 与 人 文 计算 范式 的 快速 兴起 显著 提升 了 
人 文 领域 研究 者 对 高 质量 、 宽 领域 细 粒 度数 据 基础 设 
施 的 需求 。 现 有 研究 成 果 表 明 , 以 本 体 ”、 关 联 数 
据 ”. 知 识 图 谱 ” 等 为 代表 的 语义 网 技术 ,在 非 结 构 化 
文化 遗产 资源 向 结构 化 语义 数据 集 的 转化 过 程 中 发 挥 
了 重要 作用 ,能 够 面向 数字 人 文 研究 的 数据 利用 需求 ， 
有 支撑 多 种 主题 ”、 类 型 . 模 态 " 和 非 结构 化 文化 
跑 凑 数据 资源 的 结构 化 整合 。 如 何在 依托 上 述 模式 构 


用 范围 也 各 不 相同 。 

在 面向 关联 数据 集 的 实体 语义 相似 度 计算 研 究 
中 ,路 径 距 离 是 具有 代表 性 的 粗 粒度 实体 语义 相似 度 
算法 ,此 类 方法 将 关联 数据 集 的 RDF 三 元 组 视 为 一 种 
经 典 有 向 图 模型 ,通过 度量 一 组 节点 的 路 径 距 离 反 映 
其 对 应 命名 实体 的 语义 相似 度 ,Passant 方法 、Hick- 
son 方法 '" 均 是 将 路 径 距 离 应 用 于 数据 集 实体 语义 相 
似 度 计算 的 典型 案例 。 属 性 特征 则 是 应 用 较为 广泛 的 
中 粒度 实体 语义 相似 度 计算 方法 :语义 关联 数据 的 构 
建 与 发 布 往往 伴随 着 与 之 对 应 的 领域 本 体 概念 模型 构 
建 或 复 用 ,因而 通过 对 本 体 模型 中 的 类 间 关 系 与 属性 
特征 进行 分 析 , 能 够 有 效 支 撑 实体 间 的 语义 相关 性 的 
量化 。Tversky 模型 "是 以 本 体 属性 特征 判断 实体 语 
义 相 似 度 的 典型 算法 ,该 模型 主要 依据 一 组 实体 间 共 


建 的 文化 遗产 语义 数据 集 基础 上 ,实现 领域 更 宽 、 粒 度 
责 绒 .质量 更 优 的 多 源 融 合 与 数据 互 操作 , 则 成 为 新 阶 
眉 又 字 人 文 数据 基础 设施 建构 中 需要 关注 的 重点 问 
题 s 因此 ,构建 行 之 有 效 的 数据 集 实体 语义 相似 度 计 
算 53 法 则 成 为 实现 这 一 目标 的 关键 。 

CJ 实体 语义 相似 度 计算 的 实质 是 通过 求 得 具体 数 
人 对 一 组 命名 实体 间 的 相似 性 关系 进行 量化 。 近 年 
浅 , 蝴 着 关联 开放 数据 标准 下 语义 数据 集 创建 与 发 布 
实 目的 日 益 丰 富 ,国内 外 基于 语义 相似 度 的 数据 集 语 
》X 觅 发 现 研究 也 越 来 越 多 ” ,其 中 产 出 了 一 系列 不 
同 芍 实体 语义 相似 度 计算 策略 ,例如 基于 领域 本 体 \ 语 
料 谋 等 依托 外 部 数据 的 相似 度 算 法 "1 , 关联 可 视 化 、 
关联 规则 挖 气 等 基于 内 部 数据 驱动 的 相似 度 计算 方 
法 ,以 及 基于 路 径 、 基 于 属性 、 基 于 内 容 等 侧重 于 数据 
集体 系 特 征 的 相似 度 计算 方法 。 通 过 对 上 述 实体 语义 
相似 度 计算 方法 进行 横向 比较 ,可 发 现 各 类 算法 的 主 
要 差异 体现 在 对 语义 数据 集 度量 粒度 的 选择 方面 。 粒 
度 是 用 于 比较 数据 ,信息 或 知识 粗糙 性 的 度量 单位 ,其 
精细 度 取决 于 数据 集 细 化 层次 的 深浅 或 划分 模式 的 规 
模 :层次 越 深 、 模 式 越 多 则 粒度 越 细 ,反之 则 粒度 更 
粗 "。 基 于 多 粒度 思想 对 主流 的 数据 集 实体 语义 相 
似 度 算法 进行 分 类 ,其 中 粗 粒度 方法 主要 包括 旭日 图 、 
树 状 图 、 圆 堆 图 等 数据 可 视 化 工具 ,以 及 多 种 基于 路 径 
距离 的 实体 相似 度 算法 ;中 粒度 实体 相似 度 计算 方法 
则 主要 包括 基于 本 体 的 属性 特征 分 析 、 基 于 链接 谓词 
的 关联 规则 发 现 等 ; 细 粒 度 层 面 的 实体 相似 度 算法 则 
主要 通过 挖 据 实体 的 领域 背景 知识 或 上 下 文 信息 ,以 
实现 数据 集中 实体 相关 性 的 量化 。 上 述 实体 语义 相似 


有 属性 和 差异 属性 的 数量 ,对 其 语义 相似 度 进行 计算 。 
路 径 距 离 与 属性 特征 在 语义 数据 集 的 实体 语义 相似 度 
计算 中 各 具 优 势 ,实践 中 往往 将 二 者 结合 运用 :路 
径 距 离 充 分 利用 了 RDF 模型 的 三 元 组 数据 结构 ,在 由 
节点 与 关系 构成 的 关联 语义 网 络 中 具有 较 高 的 运算 效 
率 和 广泛 的 兼容 性 ,但 其 在 运算 过 程 中 将 数据 集中 所 
有 实体 均 视 为 无 显著 差异 的 节点 ,一定 程度 上 忽略 了 
其 在 细 粒 度 层 面 的 特征 关系 ,在 面向 多 个 复杂 数据 集 
的 实体 语义 相似 度 计算 中 ,存在 误差 大 .开销 大 等 问 
题 。 此 外 ,对 于 单一 的 路 径 距 离 算 法 ,也 难以 适用 于 器 
领域 数据 集 的 实体 相似 度 计 算 需 求 。 而 通过 与 属性 特 
征 方法 的 结合 ,路 径 距 离 算法 在 细 粒 度 层 面 的 缺陷 将 
得 到 较 好 补足 ,同时 也 规避 了 基于 本 体 的 语义 相似 度 
算法 对 于 数据 集 构建 质量 与 构建 方式 的 较 高 限制 ” 。 
随 着 语义 关联 数据 相关 实践 的 不 断 深入 ,大 规模 
知识 库 中 包含 的 实体 规模 快速 增长 ,同时 实体 的 属性 
村 征 和 标注 层次 也 不 断 细 化 。 面 向 语义 数据 集 的 实体 
语义 相似 度 计算 方法 设计 日 益 呈 现 多 粒度 、 多 方法 融 
合 的 特征 。 例 如 : 贾 丽 梅 等 ”在 关联 数据 属性 特征 的 
基础 上 ,通过 引入 基于 动态 权 值 的 语义 相似 度 算法 和 
面向 属性 重要 性 与 取 值 类 型 的 动态 加 权 机 制 ,提升 了 
语义 相似 度 计算 的 准确 性 。R. Meymandpour 等 ”提出 
了 一 种 基于 上 下 文 的 关联 数据 相似 度 计算 策略 ,通过 
SPARQL 查询 全 面 获取 关联 数据 集 的 属性 列表 及 各 项 
属性 的 取 值 内 容 , 并 引入 基于 语料库 的 词 向 量 模型 进 
行 语义 相似 度 的 计算 。 刘 晓 娟 等 ” 基于 对 关联 数据 
的 隐 含 知识 网 络 特性 的 分 析 ,提出 了 一 种 改进 的 向 量 
空间 模型 ,并 通过 引入 属性 加 权 思 想 进一步 提升 了 关 
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联 数据 实体 语义 相似 度 的 计算 精度 。 上 述 研究 也 反映 
出 , 现 阶段 面向 数据 集 的 实体 语义 相似 度 计 算 方 法 ,在 
设计 思路 上 逐步 从 算法 技术 导向 转换 为 对 象 需求 导 
向 ,在 方法 设计 过 程 中 更 加 注重 对 实体 所 在 数据 集 领 
域 背景 知识 和 模型 框架 结构 的 分 析 , 并 通过 加 权 运 算 
方式 对 面向 不 同 粒度 的 实体 相似 度 计算 方 法 进行 整 
合 " ,从 而 在 语义 数据 集 构建 技术 快速 演进 更 迭 的 背 
景 下 ,进一步 保证 并 提升 实体 语义 相似 度 计 算 结果 的 
准确 性 与 可 靠 性 。 通 过 分 析 上 述 研究 现状 ,可 以 看 出 
目前 面向 数字 人 文 与 人 文 计算 的 文化 遗产 资源 的 语义 
组 织 研究 已 经 取得 了 初步 成 果 , 国 内 外 研究 者 通过 对 
本 体 .关联 数据 .知识 图 谱 等 语义 组 织 工具 的 综合 应 
用 ,着 眼 于 不 同 的 细 分 领域 文化 遗产 信息 资源 的 内 容 
区 式 特征 ,对 文化 遗产 信息 资源 的 开发 ,利用 共享 进 
征 而 卓 有 价值 的 探索 。 为 了 更 好 地 满足 人 文 领域 研究 
郑 罗 与 数字 人 文 研究 过 程 中 对 于 高 质量 、 宽 领域 . 细 粒 
名 化 遗产 数据 的 利用 需求 ,有 必要 进一步 推动 语义 
网 我 术 与 文化 遗产 资源 组 织 的 融合 。 通 过 深入 研究 文 
但 产 领域 信息 资源 的 概念 集成 .本 体 匹配 和 实体 关 
尖 器 现 方法 ,提升 相关 领域 中 数据 集成 和 知识 价值 开 


(up 


向 贡 用 的 效能 。 本 文 着 眼 于 数字 人 文 彰 景 下 文化 遗产 


相似 度 计算 方法 基础 上 ,对 文化 遗产 关联 数据 的 实体 
语 臣 相关 性 进行 有 效 量化 ,进而 为 多 源 异 构 文化 遗产 


数 鼎 资源 的 语义 融合 与 数据 互 操作 提供 可 行 思路 。 


3 G 数 煌 壁画 叙 词 表 关 联 数据 的 实体 语义 
相似 度 计算 方法 


3.1 敦煌 壁画 叙 词 表 关 联 数据 的 基本 概况 

敦 烛 学 是 中 国文 化 遗产 研究 中 的 一 个 特殊 领域 ， 
敦 烛 壁画 更 是 人 类 文化 遗产 中 的 瑰宝 ,具有 极 高 的 艺 
术 观 赏 和 科学 研究 价值 。 随 着 文化 遗产 数字 化 和 数字 
人 文 研究 的 兴起 ,敦煌 研究 者 积累 了 大 量 的 一 手 信息 
资源 ,为 敦煌 学 研究 和 敦煌 壁画 的 传播 提供 了 重要 条 
件 。 为 了 发 掘 敦 烛 壁 画 资源 中 蕴含 的 语义 信息 ,并 对 
其 进行 有 效 组 织 和 规范 表达 ,国内 学 者 围绕 敦煌 壁画 
数字 资源 的 语义 标注 .信息 检索 与 知识 组 织 需求 ,在 对 
以 AAT( 艺 术 与 建筑 叙 词 表 ) 为 代表 的 多 层级 结构 化 
叙 词 表 进 行 调研 分 析 的 基础 上 ,整合 (敦煌 学 大 辞典 》 
《敦煌 石窟 内 容 总 录 兴 敦 伯 人 物 志 》 等 敦煌 学 基础 文 
献 ,通过 自 顶 向 下 与 自 底 向 上 相 结 合 的 构建 方法 完成 


了 敦煌 壁画 叙 词 表 的 编制 ,并 利用 语义 网 技术 实现 叙 
词 表 的 关联 数据 发 布 ” 。 该 研究 的 核心 成 果 “ 敦 煌 壁 
画 叙 词 表 关 联 数 据 " 已 成 为 当前 文化 遗产 语义 组 织 领 
域 具有 代表 性 的 实践 案例 之 一 ,已 发 布 的 敦煌 壁画 叙 
词 表 关联 数据 集 含 有 语义 实体 4 500 余 个 ,三 元 组 规 
模 达 27 500 余 条 ,涉及 敦煌 壁画 叙 词 表 的 5 大 分 面 ,25 
个 二 级 类 目 ,3 896 个 受 控 词 汇 ,能 够 为 敦 烛 壁画 数字 
资源 的 深度 语义 标注 .语义 检索 、 知 识 组 织 、 信 息 关 联 
与 共享 等 提供 有 效 的 数据 支撑 '” 。 
3.2 ”敦煌 壁画 叙 词 表 关 联 数据 的 语义 描述 粒度 分 析 
关联 数据 通过 RDF 三 元 组 实现 资源 的 描述 与 组 
织 ,在 三 元 组 中 由 链接 谓词 (Predicate ) 在 头 部 实体 
(Subject) 和 尾部 实体 (Object) 之 间 建 立 链接 , 以 描述 
不 同 资源 之 间 存 在 的 属性 关联 关系 。 在 关联 数据 发 布 
实践 中 ,用 于 描述 特定 资源 的 语义 实体 往往 由 多 条 三 
元 组 共同 构成 ,由 于 链接 谓词 的 不 同 , 实 体 中 各 个 三 元 
组 的 语义 描述 粒度 往往 存在 差异 。 在 语义 相似 度 计 算 
过 程 中 ,实体 之 间 的 层次 关系 、 逻 辑 关 系 和 属性 参数 对 
于 相似 度 计算 结果 均 具 有 不 同 程度 的 影响 ,如 果 采 用 
单一 的 计算 方法 对 粒度 不 同 的 多 种 三 元 组 进行 直接 比 
较 , 往 往 会 造成 语义 信息 的 丢失 ,进而 产生 计算 误差 。 
因此 在 敦煌 壁画 叙 词 表 关 联 数 据 的 实体 语义 相似 度 计 
算 过 程 中 ,有 必要 通过 分 析 链 接 谓词 的 构成 来 揭示 不 
同类 型 三 元 组 的 语义 描述 粒度 ,在 此 基础 上 为 不 同 粒 
度 层 级 的 语义 描述 模块 匹配 相 适 应 的 语义 相似 度 计算 
方法 。 
本 体 构建 是 关联 数据 创建 与 发 布 的 重要 环节 ,本 
体 模型 通过 定义 类 与 类 的 属性 关系 以 描述 资源 实体 之 
间 的 语义 关系 和 层级 结构 。 敦 煌 壁画 叙 词 表 本 体 ™ 
是 在 敦煌 壁画 叙 词 表 人 逻辑 结构 基础 上 ,通过 复 用 GVP 
本 体 、SKOS 数据 模型 和 DCMI 元 数据 标准 中 的 术语 元 
素 构 建 的 本 体 模型 。 该 本 体 定义 了 敦煌 壁画 叙 词 表 关 
联 数据 的 层级 结构 ,为 敦煌 壁画 叙 词 表 的 语义 转化 和 
关联 数据 发 布 提供 了 术语 框架 。 在 敦煌 壁画 叙 词 表 关 
联 数 据 实体 语义 相似 度 计算 过 程 中 ,通过 分 析 敦 煌 壁 
画 叙 词 表 本 体 的 Schema 框架 ,能 够 对 敦煌 壁画 关联 数 
据 中 的 链接 谓词 进行 全 面 抽取 ,进而 在 此 基础 上 有 效 
揭示 其 语义 描述 粒度 。 敦 煌 壁画 叙 词 表 本 体 的 属性 定 
义 见 表 1 ,根据 描述 功能 的 不 同 分 为 对 象 属 性 和 数据 
属性 。 对 象 属性 用 于 描述 类 与 类 之 间 的 相关 关系 ,大 
多 数 对 象 属性 仅 用 于 描述 一 组 概念 之 间 的 相关 关系 ， 
如 exactMatch 、related 属性 用 于 描述 概念 间 的 相同 或 相 
关 关 系 ,inScheme .hasTopConcept 属性 用 于 描述 概念 与 
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词 表 、 词 表 与 分 面 之 间 的 包含 关系 。 而 broader、narro- 
属性 则 被 定义 为 多 种 类 间 关 系 的 描述 媒介 ,其 既 能 
够 描述 概念 之 间 的 上 下 位 关系 ,也 能 够 描述 概念 与 分 
面 (Facet) 之 间 的 层级 关系 。 数 据 属性 则 用 于 描述 实 


WeT 


体 在 不 同方 面 的 性 质 
具体 信息 
有 scopeNote 
的 背景 


月 尿 


,例如 名 称 、 创 建 时 间 、 创 建 者 等 
,其 属性 值 的 数据 类 型 多 为 短文 本 字符 型 , 仅 
属性 因 专 用 于 著录 抽取 自 领域 专业 文献 
知识 ,其 属性 值 类 型 为 长 文本 型 。 


表 1 敦煌 壁画 叙 词 表 本 体 的 属性 定义 
属性 分 类 属性 名 定义 域 ( domain class ) 值 域 (range class) 
对 象 属性 skos :broader skos :Concept skos :Concept .gvp :Facet gvp:Hierarchy 
skos :narroweT skos:Concept gvp:Facet skos :Concept \gvp: Hierarchy 
skos :exactMatch skos :Concept gvp :Concept 
skos :hasTopConcept skos :ConceptScheme gvp :Facet 
skos :inScheme skos :Concept skos :ConceptScheme 
skos :related skos :Concept skos :Concept 
rdf:type skos :Concept skos :Concept\dhvocab :instance 
数据 属 ， skos :preLabel skos :Concept <value > ( 概念 名 称 ) 
skos :scopeNote skos :Concept <value > ( 概念 背景 知识 ) 
dc:created skos :Concept <value > (概念 创建 时 间 ) 
de :creator skos :ConceptScheme <value > ( 词 表 创建 者 ) 
dc:rights skos :ConceptScheme <value > ( 词 表 版 权 所 有 者 ) 
dc:title skos :ConceptScheme <value > ( 词 表 正式 题名 ) 


综 上 所 述 ,基于 对 敦煌 壁画 叙 词 表 本 体 模 型 和 
thema 框架 的 分 析 , 本 文 将 敦煌 壁画 叙 词 表 关 联 数据 
义 描 述 粒度 划分 为 以 下 三 个 层次 :中 粗 粒 度 层级 ， 
映 敦 粕 壁画 叙 词 表 关 联 数据 中 不 同 实体 层级 结构 
;其 的 三 元 组 构成 ,对 应 的 链接 谓词 包括 反映 概念 上 


下 钼 关系 的 broadqer narrower .hasTopConcept 属性 以 及 


实体 .尾部 实体 与 链接 谓词 ;其 次 ,根据 三 元 组 中 链接 
谓词 对 应 的 语义 粒度 层级 将 其 与 模型 中 的 粗 、. 中 、 细 粒 
度 模 块 进行 匹配 ;再 次 ,针对 各 模块 三 元 组 的 内 容 与 结 
构 特 点 分 别 设置 与 之 对 应 的 计算 方法 并 完成 语义 相似 
度 的 计算 ;最 后 ,依据 各 模块 三 元 组 中 链接 谓词 的 构成 
情况 进行 权重 分 配 ,并 在 此 基础 上 通过 加 权 运 算得 出 


必 喘 概念 念 共 指 关系 的 exactMatch 属性 。@ 四 中 粒度 层 
级 0 由 反映 叙 词 表 关联 数据 中 实体 之 间 逻 辑 关系 信息 
的 皇 元 组 构成 ， 对 应 的 链接 谓词 包括 反映 实体 语义 关 
系 的 type ,inScheme ,related 等 对 象 属性 以 及 反映 实体 
固有 有 性 质 的 preLabel .created creator .rights 等 短文 本 属 


性 。@ 细 粒度 层次 ,由 标注 叙 词 表 中 部 分 实体 所 具有 
领域 背景 信息 的 三 元 组 构成 ,对 应 的 链接 谓词 为 长 文 
本 属性 scopeNote。 


3.3 基于 多 粒度 匹配 的 实体 语义 相似 度 计算 模型 
现 阶段 的 实体 语义 相似 度 计 算 方法 研究 逐渐 从 单 
一 的 技术 导向 转换 为 面向 计算 对 象 特征 的 需求 导向 ， 
加 注重 对 实体 所 在 数据 集 领域 的 背景 知识 和 模型 杠 
吉 构 的 分 析 , 面向 不 同 粒度 的 实体 三 元 组 匹配 与 之 
应 的 方法 ,来 进行 语义 相似 度 计算 。 本 节 在 上 述 思 
基础 上 ,依据 对 敦 烛 壁 画 令 词 表 关 联 数据 语义 描述 
粒度 的 分 析 结 果 ,提出 一 种 多 粒度 匹配 与 加 权 运 算 相 
结合 的 实体 语义 相似 度 计 算 模 型 ,其 基本 框架 见 图 1。 
首先 ,通过 敦 烛 壁画 叙 词 表 关 联 数 据 的 SPARQL 查询 
端口 访问 并 获取 待 计算 实体 的 三 元 组 数据 ,包括 头 部 


更 
架 
适 


相 基 
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党 


ed 合 语义 相似 度 。 


实体 语义 相似 度 计算 
全 
模块 权重 分 配 

个 个 个 

属性 共 指 属性 特征 主题 识别 
十 十 十 

| 路 径 距 离 编辑 距离 主题 相似 度 

| 个 个 个 


| 教 煌 壁画 叙 词 表 关 联 数据 | 


图 1 基于 多 粒度 匹配 的 实体 语义 相似 度 计算 模型 


3.3.1 粗 粒 度 模块 的 实体 相似 度 计算 方法 
粗 粒 度 模块 面向 敦煌 壁画 叙 词 表 关 联 数 据 中 用 于 
描述 实体 层级 结构 关系 的 三 元 组 ,模型 采用 属性 共 指 
与 路 径 距 离 相 结 合 的 语义 相似 度 计算 方法 。 
(1) 基 于 属性 共 指 的 语义 相似 度 计算 。 在 对 敦煌 
画 叙 词 表 关 联 数据 中 两 个 实体 进行 语义 相似 度 计算 
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前 ,首先 应 判断 二 者 间 是 否 具有 等 价 属性 。 如 果 两 个 
实体 之 间 存 在 如 owl: sameAS rdfs:seeAlso 或 skos : ex- 
actMatch 等 表示 共 指 关系 的 层次 属性 ,其 语义 相似 度 
应 判断 为 1, 否 则 这 一 部 分 的 相似 度 为 0, 其 计算 公式 
如 公式 1 所 示 : 


] ， sameAs 


Si (YY) = | 公式 (1) 


0, otherwise 

(2) 基 于 路 径 距离 的 语义 相似 度 计算 。 作 为 敦煌 
壁画 氢 词 表 的 语义 发 布 成 果 , 实 体 之 间 的 层级 性 是 敦 
煌 壁画 叙 词 表 关 联 数据 的 重要 特性 。 因 此 在 语义 相似 
度 计算 过 程 中 ,应 当 充 分 考虑 各 个 实体 之 间 的 层级 关 
系 特征 ,引入 面向 概念 相对 深度 的 语义 相似 度 计算 思 
想 ” 。 路 径 距 离 即 为 遵循 这 一 思想 的 语义 相似 度 计 
算 方 法 :两 个 实体 之 间 的 路 径 距 离 越 短 , 则 其 语义 相似 
魔 苔 高 ,其 计算 公式 见 公式 2” 。 其 中 length(x,y) 表 
未 缠 体 xy 在 概念 层次 结构 树 中 的 路 径 长 度 ( 即 从 x 
链接 到 y 的 跳 转 次 数 ) ,a 为 调节 参数 ,通常 可 以 取 值 


2 


Sim (x,y) EC 
Roue Da 7 min| length(x,y) ] +a 


公式 (2) 
34 


G2 中 粒度 模块 的 实体 相似 度 计算 方法 


中 粒度 模块 面向 敦煌 壁画 叙 词 表 关联 数据 中 用 于 
丸 实 体 固 有 属性 及 相关 关系 的 三 元 组 ,模型 采用 属 
征 与 编辑 距离 相 结合 的 语义 相似 度 计算 方法 。 
属性 特征 的 语义 相似 度 计算 。 在 关联 数 
据 更 以 对 象 属性 为 链接 谓词 的 三 元 组 能 够 描述 头 部 实 
体 各 尾部 实体 间 存在 的 特定 语义 关系 。 因 此 不 同 实体 
之 间 所 含 对 象 属性 的 异同 情况 能 够 有 效 反映 其 语义 相 
关 程 度 。Tversky 模型 是 基于 属性 特征 计算 实体 语义 
相似 度 的 典型 方法 ,该 模型 依据 一 对 实体 含有 的 公共 
属性 与 差异 属性 的 数量 ,利用 公式 3 所 示 的 运算 方法 
对 二 者 语义 相似 度 进行 量化 59 。 其 中 FLxmy) 表示 实 
本 X.Y 含有 的 公共 属性 的 数量 ,f(x -y) 表 示 实 体 x 包 
含 而 实体 y 不 包含 的 属性 数量 ,反之 f(y -x) 则 表示 实 
本 y 包含 而 实体 x 不 包含 的 属性 数量 。a.B 为 调节 参 

数 ,用 于 反映 实体 X\ 的 重要 程度 ,默认 取 值 为 1。 


. f(xNy) 
Sir Hy) = yy ny 


公式 (3) 

在 引入 Tversky 模型 的 基础 上 ,还 需 结合 敦 烛 壁画 

叙 词 表 关 联 数据 的 具体 特性 对 其 进行 必要 改进 。 一 对 
实体 虽然 具有 某 项 公共 属性 ,但 是 该 属性 在 各 自 三 元 


组 中 对 应 的 宾语 实体 却 不 尽 相 同 。 针 对 这 一 现象 ,本 
模型 在 公式 3 基础 上 进行 如 下 调整 :对 于 一 组 链接 谓 
词 (Predicate) 相 同 的 属性 ,只 有 其 在 三 元 组 中 链接 的 
尾部 实体 (Object) 也 相同 时 , 才 将 其 视 为 两 个 实体 的 
公共 属性 ,否则 均 视 为 所 在 实体 的 独 有 属性 ,在 公式 3 
中 记 入 分 母 部 分 。 

(2) 基 于 编辑 距离 的 语义 相似 度 计算 。 编 辑 距离 
是 语义 相似 度 计算 的 典型 方法 ,在 本 模型 中 主要 用 于 
计算 skos :prefLabel dc :created 等 短文 本 属性 值 的 语义 
相似 度 。 该 方法 采用 转化 思想 对 原始 实体 和 目标 实体 
的 属性 值 文本 相似 度 进行 量化 ,计算 公式 见 公 式 4。 
其 中 te(x-y) 表 示 x 向 y 转换 所 需 的 最 小 次 数 ,操作 
内 容 包括 属性 值 的 加 减 、 插 入 替换 和 删除 等 ， 
max[ x1 ,1y1 | 表示 两 个 属性 值 的 最 大 字 长 。 


tc(x-y) 
max|[ Ix| ,ly| ] 


3.3.3” 细 粒度 模块 的 实体 相似 度 计算 方法 

细 粒 度 模块 面向 敦煌 壁画 叙 词 表 关 联 数据 中 用 于 
著录 实体 相关 背景 信息 的 三 元 组 ,主要 针对 长 文本 属 
性 skos :scopeNote 的 值 进行 语义 相似 度 计 算 。 由 于 长 
文本 属性 值 往往 包含 多 个 语句 段落 ,文本 结构 复杂 且 
信息 容量 较 高 ,因此 上 文 针 对 短文 本 属性 值 的 编辑 距 
离 方 法 往往 难以 适用 。 面 向 长 文本 信息 的 语义 相似 度 
计算 需求 ,本 模型 采用 主题 识别 与 Tversky 模型 相 结 合 
的 主题 相似 度 计 算 策 略 ,首先 使 用 文本 主题 识别 工具 ， 
从 原始 实体 和 目标 实体 的 长 文本 属性 值 中 分 别 抽取 规 
定数 量 的 主题 词 。 再 统计 二 者 共有 主题 词 和 独 有 主题 
词 的 数量 ,并 代入 Tversky 模型 以 量化 其 语义 相似 度 ， 
计算 过 程 如 公式 5 所 示 : 

Simzuoewoe(XYY) = 


Count(xNy) 
Count(xNy) + Count(x—y) +Count(y—%x) 


公式 (5) 
上 文 针 对 敦煌 壁画 叙 词 表 关 联 数据 中 粗 粒 度 .中 
粒度 与 细 粒 度 模 块 的 实体 语义 相似 度 分 别提 出 了 相应 
的 计算 方法 。 在 实际 计算 过 程 中 ,还 需 通过 分 析 计 算 
对 和 象 的 内 容 分 布 .属性 特征 等 具体 情形 ,合理 设 定 三 个 
粒度 模块 中 各 个 计算 方法 的 权重 系数 ,以 得 出 该 组 实 
体 的 综合 语义 相似 度 ,计算 过 程 如 公式 6 所 示 (a、B、y 
为 各 个 模块 权重 系数 ) : 
Simia = QSim pe + BOIm sp + YIUm a 


公式 (6) 


Sim gprr_pi, (x ,Y) =1 公式 (4 ) 
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4 敦煌 壁画 叙 词 表 关 联 数据 实体 语义 相 
似 度 计 算 实验 


4.1 数据 来 源 

为 了 验证 上 文 提出 的 计算 方法 在 敦 烛 壁画 叙 词 表 
关联 数据 实体 语义 相似 度 计算 中 的 实际 效果 ,本 文 以 
数据 集中 “飞天 ”相关 实体 为 实验 对 象 ,引入 多 种 同类 
算法 开展 语义 相似 度 计 算 的 对 比 实验 。 实 验 数 据 通过 
SPARQL 查询 方式 从 敦 但 壁画 叙 词 表 关 联 数据 服务 平 


PREFIX dhvocab 


™ select * where{ 


http://www. w3. org/2000/01/rdf-schemas. 


http://www. w3. org/2004/02/skos/cores 


http://dh. whu. edu. cn/dhvocab 


?Entity skos:prefLabel 


查询 结果 : 
涉 | Raw Response 负 


Showing 1to 8 of 8 entries 


Entity 


aq 


dhvocab:tema2875 


dhvocab:tema3655 


dhvocab:tema1993 


dhvocab:tema445 


dhvocab:tema245 


202304.00623v1 


dhvocab:tema2533 


dhvocab:tema2551 


w= 


dhvocab:tema2552 


Showing 1 to 8 of 8 entries 


hinaXiv 


4. 包 实验 过 程 
4.2.1 实验 内 容 

将 上 文 获取 的 8 条 关联 数据 实体 两 两 分 组 ,构建 8 
x8 的 实体 相似 度 和 矩阵 ,生成 28 条 语义 相似 度 计算 任 


http://waw. w3. org/1999/02/22-rdf-syntax-ns# 


Label 


台 获 取 : 在 平台 SPARQL Endpoint 端口 ”中 使 用 图 2 
所 示 的 SPARQL 查询 式 对 skos:prefLabel 属性 值 中 含 
有 “飞天 ”字段 的 所 有 实体 进行 检索 , 共 获 取 有 效 实体 
8 个 ,分 别 为 :四 双飞 天 < dhvocab :tema2875 > ;@) 飞 天 
医 < dhvocab :tema3655 > ;@@ 莲 花 飞 天 藻 井 图 案 < dh- 
vocab :temal1993 > ;由 飞天 纹 < dhvocab :tema445 > ; G) 
飞天 < dhvocab :tema245 > ;飞天 乐 伎 < dhvocab :te- 
ma2533 > ;@O 中 原 式 飞天 < dhvocab :tema2551 > ; @) 西 
域 式 飞 天 < dhvocab :tema2552 > 。 查 询 结果 见 图 3。 


| 
x 


?Label. Filter(contains(?Label,’ 飞天 ')) 


图 2 ” SPARQL 查询 式 


Search: Show|50 vj|entres 


和 
vy 


"双飞 天 '@m 


"Om 


"莲花 


飞天 洪 井 图 案 "@zh 


"飞天 纹 "@zh 
"天 '@m 


"天 乐 伎 "@zh 


"中 原 式 飞天 "@z 


“西城 式 飞天 '@m 


图 3 SPARQL 查询 结果 


务 , 见 表 2。 下 文 分 别 使 用 基于 多 粒度 匹配 的 实体 相 
似 度 .基于 Tversky 模型 的 属性 特征 相似 度 和 基于 编辑 
距离 的 标签 文本 相似 度 方法 进行 实体 语义 相似 度 的 计 
算 实验 。 


表 2 飞天 相关 实体 语义 相似 度 和 矩阵 


实体 Dtema245 Dtema445 Dtemal993 @tema2533 tema2551 @tema2552 Dtema2875 Dtema3655 
Dtema245 一 TI1 :OO) T2:D® T3:D@ T4:D® T5 :DO T6:OO T7:0D@) 
Dtema445 一 一 T8:®® T9:®@ T10:®® T11:®© T12:®® T13:®® 
temal993 — 至 3 TI4:@Q@ TI5:@@ T16:®© T17:®® T18:@@ 
@Dtema2533 一 Es T19:@® T20:@® T21:@® T2:@0@ 
Dtema2551 二 一 一 一 一 T23 :GO) T24:G@O) T25:O@) 
@tema2552 一 一 一 一 一 一 T26:OO) T27:OG@) 
Dtema2875 一 一 一 一 一 = 二 T28 :DG@) 
Dtema3655 一 一 一 一 一 一 至 


4.2.2 ”基于 多 粒度 匹配 的 实体 语义 相似 度 计算 
使 用 基于 多 粒度 匹配 的 方法 进行 实体 语义 相似 度 


计算 需要 事先 对 待 计算 实体 的 三 元 组 构成 情况 进行 分 
析 , 根 据 不 同 粒 度 层级 中 三 元 组 的 分 布 特征 为 各 个 粒 
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度 模 块 分 配 相应 的 权重 系数 。 笔 者 通过 敦煌 壁画 叙 词 
表 关联 数据 服务 平台 提供 的 数据 获取 端口 下 载 上 文 所 
述 8 个 实体 的 RDF 文档 ,对 其 包含 的 55 个 链接 谓词 进 
行 分 类 并 分 别 统计 各 类 属性 的 占 比 ,统计 结果 如 表 3 
所 示 : 


表 3 链接 谓词 数量 占 比 统计 


属性 类 型 链接 谓词 数量 占 比 

层级 属性 skos :broader ; skos :narrower 20 36.36% 

对 象 属性 1df :type; skos : inScheme 16 29.09% 
短文 本 属性 dct: created ;skos :prefLabel 16 29.09% 
长 文本 属性 skos :scopeNote 坟 5.45% 


(1) 粗 粒度 模块 中 ,由 于 实验 涉及 的 8 个 实体 均 不 
包含 owl:sameAs ,rdfs : seeAlso skos :exactMatch 等 共 指 
， 因此 本 次 实验 中 可 不 考虑 实体 等 价 对 语义 相似 

影响。 如 表 3 所 示 ,8 个 实体 中 共 包 含 20 个 反映 

成 8 裔 性 的 链接 谓词 ,在 所 有 属性 中 占 比 最 高 ,可 知 在 
术 禾 据 集中 实体 间 的 路 径 距 离 对 其 语义 相似 度 计算 的 
影响 程度 较 高 ,依据 链接 谓词 占 比 将 粗 粒 度 模 块 的 权 
外 系数 定义 为 0.363 6。 
(2) 中 粒度 模块 中 ,8 个 实体 中 共 含 反映 对 象 属性 
的 链接 谓词 16 项 ,依据 甚 占 比 将 本 模块 中 改进 Tversky 
模型 算法 的 权 值 设 为 0.290 9。 此 外 ,反映 短文 本 属性 
的 侧 接 亩 词 数量 也 为 16 项 ,因此 本 模块 中 编辑 距离 相 
似 朗 算法 的 权 值 亦 设 为 0.290 9。 其 中 由 dc:created 属 
胥 际 注 的 日 期 数据 需 转 化 为 时 间 戳 文本 后 再 进行 编辑 
中 沼 计 算 。 

:三 (3 ) 细 粒度 模块 中 ,由 于 8 个 实体 中 仅 飞天 < dh- 
voeab :tema245 > 、 过 花 飞 天 藻 井 图 案 < dhvocab: te- 
mal993 > 、 双飞 天 < dhvocab :tema2875 > 实体 中 各 含有 
1 项 skos :scopeNote 属性 ,可见 在 本 实验 中 各 实体 的 领 
域 背 景 信 息 对 于 计算 结果 的 影响 较 小 , 故 依 据 其 占 比 
将 细 粒 度 模 块 权 重 系数 定 为 0.054 5。 

综 上 所 示 ,在 分 析 各 模块 链接 谓词 构成 情况 的 基 
We 所 示 的 实验 方案 ,并 据 此 分 别 完成 粗 

度 .中 粒度 与 细 粒 度 模 块 的 语义 相似 度 计 算 。 

2 基于 多 粒度 匹配 的 飞天 实体 语义 相似 度 计算 


粒度 层 乡 计算 对 象 计算 方法 权重 系数 
粗 粒度 模块 层级 属性 路 径 距 离 0.363 6 
中 粒度 模块 对 象 属性 改进 Tversky 模型 0.290 9 
短文 本 属性 文本 编辑 距离 0.2909 
细 粒 度 模块 长 文本 属性 主题 相似 度 0.054 5 


此 处 以 任务 “Tl :Sim (tema245 ,tema445 ) ”为 例 , 痢 
述 基 于 多 粒度 匹配 的 实体 语义 相似 度 计算 过 程 :在 粗 


粒度 模块 中 ,飞天 < dhvocab :tema245 > 与 飞天 纹 < dh- 
vocab :tema445 > 的 路 径 距 离 为 10 ,代入 公式 2 可 知 其 
路 径 距 离 相似 度 为 0.090 9 ,加 权 后 为 0.033 1。 在 中 
粒度 模块 中 ,经 改进 Tversky 模型 计算 ,发 天 < dhvo- 
cab :tema245 > 与 飞天 纹 < dhvocab :tema445 > 的 属性 
特征 相似 度 为 0.4, 加 权 后 为 0. 1164 ;短文 本 属性 经 编 
辑 距 离 ( 公 式 4) 计算 得 到 相似 度 0. 633 3, 加 权 后 
为 0.184 2。 在 细 粒 度 模 块 中 ,由 于 飞天 纹 < dhvocab : 
tema445 > 中 不 包含 skos:scopeNote 属性 ,因此 二 者 细 
粒度 模块 的 语义 相似 度 为 0。 综 上 ,飞天 < dhvocab :te- 
ma245 > 与 飞天 纹 < dhvocab :tema445 > 的 语义 相似 度 
为 0.333 6。 采 用 相同 方法 可 计算 其 他 27 组 实体 的 相 
似 度 。 
4.2.3 基于 Tversky 模型 的 属性 特征 相似 度 计算 

如 公式 3 所 示 ,经 典 Tversky 模型 在 计算 两 个 实体 
语义 相似 度 的 过 程 中 仅 依 据 二 者 共有 属性 和 差异 属性 
的 数量 进行 计算 ,而 不 考虑 属性 的 具体 取 值 情况 。 例 
如 在 任务 Tl 中 ,实体 飞天 < dhvocab :tema245 > 与 飞天 
纹 < dhvocab :tema445 > 中 属性 相同 的 三 元 组 为 5 项 ， 
飞天 < dhvocab :tema245 > 含有 独 有 属性 2 项 ,发 天 纹 
< dhvocab :tema445 > 不 含 独 有 属性 , 则 代入 公式 3 可 
知 其 相似 度 为 0.714 3。 采 用 相同 算法 即 可 完成 其 他 
27 项 相似 度 计算 任务 。 
4.2.4 基于 编辑 距离 的 标签 文本 相似 度 计 算 

基于 编辑 距离 的 文本 相似 度 计算 是 大 规模 关联 数 
据 融 合 与 互 操作 实践 中 的 常用 方法 ,其 基本 思想 是 : 关 
联 数据 实体 中 de: title、skos:prefLabel 等 用 于 反映 题 
名 ,标签 信息 的 属性 ,其 取 值 均 为 数据 创建 或 发 布 者 从 
自然 语言 中 精 选 而 来 的 具有 代表 性 ,规范 性 的 语词 , 基 
于 标签 编辑 距离 进行 语义 相似 度 计算 能 够 较 好 地 平衡 
计算 效率 .结果 质量 和 性 能 开销 。 标 签 编辑 距离 采用 
如 公式 4 所 示 基 于 转化 的 计算 思想 :通过 一 组 实体 属 
性 值 最 短 编 辑 次 数 与 最 大 字 长 的 比值 衡量 其 语义 相似 
度 的 高 低 。 此 处 仍 以 Tl 为 例 : 实 体 < dhvocab :tema245 
> 与 < dhvocab :tema445 > 的 skos: prefLabel 属性 值 分 
别 为 "飞天 ”和 ”飞天 纹 ”, 其 最 短 编辑 距离 为 1 ,最 大 字 
长 为 3, 代 入 公式 4 可知 二 者 的 标签 编辑 距离 相似 度 为 
0.666 7。 其 他 27 项 相似 度 计 算 任务 亦 采 用 相同 算法 
完成 。 
4.3 实验 分 析 

分 别 使 用 基于 经 典 Tversky 模型 标签 编辑 距离 和 
多 粒度 匹配 的 实体 语义 相似 度 计 算 方 法 完成 表 1 中 的 
28 个 计算 任务 ,结果 如 表 4 所 示 : 
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表 4 实验 结果 


计算 任务 计算 对 象 Tversky 模型 标签 编辑 距离 多 粒度 匹配 | 计算 任务 计算 对 象 Tversky 模型 标签 编辑 距离 多 粒度 匹配 
TO01 tema245 ;tema445 0.714 3 0.666 7 0.333 6 T15 temal993 ;tema2551 0.8333 0.1250 0.247 8 
T02 tema245 ;temal993 0.857 1 0.2500 0.280 8 T16 temal993 ;tema2552 0.8333 0.1250 0.247 8 
T03 tema245 ;tema2533 0.7143 0.5000 0.300 6 T17 temal993 ;tema2875 1.0000 0.2500 0.328 5 
T04 tema245 ;tema2551 0.714 3 0.400 0 0.395 1 T18 temal993 ;tema3655 0.8333 0.2500 0.209 8 
T05 tema245 ;tema2552 0.714 3 0.400 0 0.395 1 T19 tema2533 ;tema2551 1.0000 0.0000 0.3515 
T06 tema245 ;tema2875 0.857 1 0.666 7 0.338 7 T20 tema2533 ;tema2552 1.0000 0.0000 0.3515 
TO07 tema245 ;tema3655 0.7143 0.6667 0.231 6 T21 tema2533 ;tema2875 0.8333 0.250 0 0.295 1 
T08 tema445 ;temal993 0.8333 0.250 0 2713 T22 tema2533 ;tema3655 1.0000 0.5000 0.242 4 
T09 tema445 ;tema2533 1.0000 0.5000 0.302 3 T23 tema2551 ;tema2552 1.0000 0.400 0 0.615 7 
T10 tema445 ;tema2551 1.0000 0.2000 0.2607 T24 tema2551 ;tema2875 0.833 3 0.400 0 0.318 9 
TI11 tema445 ;tema2552 1.0000 0.2000 0.2607 T25 tema2551 ;tema3655 1.0000 0.2000 0.215 1 
T12 tema445 ;tema2875 0.8333 0.333:3 0.256 1 T26 tema2552 ;tema2875 0.8333 0.400 0 0.318 9 
T13 tema445 ;tema3655 1.0000 0.6667 0.243 6 T27 tema2552 ;tema3655 1.0000 0.2000 0.215 1 

uy 4 temal993 ;tema2533 0.833 3 0.250 0 0.264 2 T28 tema2875 ;tema3655 1.0000 0.3333 0.2303 


人) 比 处 以 表 3 中 T4、T7、T23 的 计算 结果 ( 见 图 4) 为 


是 飞天 "相关 实体 语义 相似 度 计算 
效果 。 上 述 3 个 任务 的 基本 概况 如 下 : 

«+ 1)T4:Sim(tema245 ,tema2551 ) 的 计算 对 象 为 实 
人 本 有 兴 天 <tema245 > ”和 “中 原 式 飞天 <tema2551 > ”， 
花 教 如 避 丁 所 词 表 关联 数据 "中 ,前 者 是 后 者 的 上 位 
概 仿 (< dhvocab :tema2551 > < skos :broader > < dhvo- 
各 jna245 > ) ,二 者 的 路 径 距 离 为 1, 具 有 较 高 的 语 
义 绪 关 度 。 通 过 比较 不 同方 法 在 T4 中 的 语义 相似 度 
记 星 结果 ,能 够 凸现 各 方法 对 于 实体 路 径 距离 的 敏感 
程度 ， 

"==(2)T7.;Sim(tema245 ,tema3655 ) 的 计算 对 象 为 实 
体 EK 天 <tema245 > ”和 “飞天 里 < tema3655 > ”, 在 
“敦煌 壁画 叙 词 表 关 联 数据 "中 ,前 者 是 实体 " 佛 家 神 
只 <tema204 > ”的 下 位 概念 ( < dhvocab :tema204 > < 
skos :narrower > < dhvocab :tema245 > ) ,是 对 一 类 特定 
佛教 人 物 的 统称 ;后 者 是 实体 “发 式 < tema3640 > ”的 
下 位 概念 ( < dhvocab :tema3655 > < dhvocab :instance > 
< dhvocab :tema3640 > ) ,用 于 描述 壁画 人 物 的 一 种 造 
型 风格 。 二 者 的 标签 文本 虽然 相似 ,但 在 数据 集 之 中 
的 路 径 距 离 高 达 12 ,实际 的 语义 相关 度 也 较 低 ,通过 
比较 不 同方 法 在 T7 中 的 计算 结果 ,能 够 直观 判断 各 方 
法 对 于 标签 内 容 相 似 但 语义 关联 较 低 的 “ 易 错 "实体 
的 识别 效果 。 

(3)T23 :Sim (tema2551 ,tema2552 ) 的 计算 对 象 为 
实体 “中 原 式 飞天 < tema2551 > ”和 “西域 式 飞 天 < te- 
ma2552 > ”, 在 “敦煌 壁画 叙 词 表 关 联 数据 "中 ,二 者 均 
为 实体 “飞天 < tema245 > ”的 下 位 概念 ,用 于 描述 “ 飞 


天 "意象 在 不 同 地 域 文化 中 的 形象 风格 。 在 数据 集 之 
中 ,二 者 的 路 径 距 离 ( 距 离 为 2) 虽 然 大 于 任务 T4 中 两 
实体 的 路 径 距 离 (距离 为 1) ,但 在 先 验 知识 层面 具 
更 高 的 语义 相似 度 ,因此 T23 适合 用 于 比较 不 同 计算 
方法 对 于 此 类 隐 性 高 相关 度 实体 的 识别 能 
ja 
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4 实体 语义 相似 度 计算 结果 对 比 


首先 ,基于 经 典 Tversky 模型 的 计算 结果 为 :T4: 
Sim( tema245 ,tema2551) = T7 :Sim ( tema245 ,tema3655 ) 
<T23 :Sim (tema2551 ,tema2552 ) 。 可 以 看 出 , 相 比 其 
他 两 种 方法 ,基于 Tversky 模型 的 语义 相似 度 计算 结果 
整体 偏 高 。 其 原因 在 于 :由 于 领域 范畴 和 标注 对 象 的 
内 容 结构 特点 ,敦煌 壁画 叙 词 表 关 联 数据 中 各 个 实体 
普遍 呈现 属性 数量 较 少 且 重复 程度 较 高 的 基本 特性 。 
对 于 面向 属性 特征 的 经 典 Tversky 模型 而 言 ,上 述 特性 
易 导 致 其 语义 相似 度 计算 结果 出 现 数值 偏 高 且 区 分 度 
不 足 的 问题 。 因 此 ,在 应 用 Tversky 模型 进行 关联 数据 
语义 相似 度 计算 的 实践 中 ,有 必要 依据 计算 需求 对 其 
进行 必要 的 改进 ,通过 调整 实体 间 共 有 属性 的 判别 标 
准 ,以 规避 上 述 现象 对 于 计算 结果 的 干扰 。 

其 次 ,基于 标签 编辑 距离 的 计算 结果 为 :TI4:Sim 
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(tema245 , tema3655 ) = T23 : Sim ( tema2551 ,tema2552 ) 
<T7:Sim(tema245 ,tema3655 ) 。 可 以 看 出 本 方法 对 T4 
的 计算 结果 相对 准确 ,但 在 T7 、T23 的 语义 相似 度 计算 
中 存在 较 大 误差 。 其 原因 在 于 :该 方法 直接 以 实体 标 
签 文本 内 容 作为 语义 相似 度 评判 依据 ,对 于 文化 遗产 
关联 数据 中 诸如 “飞天 < tema245 > ”“ 飞 天 医 < te- 
ma3655 > ”( 字 面相 似 但 语义 关联 度 低 ) 以 及 “中 原 式 
飞天 <tema2551 > ”“ 西 域 式 飞 天 < tema2552 > ”( 字 


共享 提供 了 一 种 可 行 思路 。 本 文 在 分 析 敦 焊 壁 画 叙 词 
表 关 联 数据 的 本 体 模型 和 数据 结构 的 基础 上 ,依据 数 
据 集中 实体 间 的 层级 关系 、 人 逻辑 关系 、 属 性 参数 等 构成 
要 素 对 数据 集 三 元 组 的 语义 粒度 层级 进行 划分 。 其 
次 ,针对 数字 人 文 领域 多 源 异 构 数 据 集 的 知识 融合 需 
求 , 提 出 基于 多 粒度 匹配 的 实体 语义 相似 度 计算 模型 ， 
依据 不 同 粒度 下 实体 在 数据 集中 的 内 容 与 结构 特征 ， 
合理 匹配 与 之 适应 的 语义 相似 度 算 法 ,进而 实现 了 计 


面 不 相似 但 语义 关联 度 高 ) 这 类 标签 内 容 与 语义 距离 
不 一 致 的 特殊 实体 ,往往 难以 准确 计算 其 语义 相似 度 。 

再 次 ,基于 多 粒度 匹配 的 计算 结果 为 :T7 :Sim( te- 
ma245 , tema3655 ) < T4.: Sim ( tema245, tema2551 ) < 
T23 :Sim ( tema2551, tema2552 ) , 与 上 文 对 T4、T7 、T23 
的 先 验 知识 描述 基本 一 致 。 其 原因 在 于 :基于 多 粒度 
匹 贸 的 计算 方法 能 够 根据 数据 集 的 内 容 结构 特点 ,对 
其 赔 成 要 素 进行 较为 合理 的 粒度 划分 ,并 针对 各 个 模 
城 从 别 选取 与 之 适应 的 具体 计算 方法 ;在 面向 领域 到 
景 于 识 丰富 .层次 结构 复杂 的 敦煌 壁画 叙 词 表 关 联 数 
是 填 行 语义 相似 度 计算 的 过 程 中 , 相 比 其 他 基于 单一 
是 路 的 计算 方法 能 够 取得 准确 性 更 优 的 计算 结果 。 
CJ 通过 对 三 种 方法 的 计算 结果 进行 比较 ,能 够 得 出 
BEB 认 识 :在 利用 语义 相似 度 对 文化 遗产 领域 的 关联 
北齐 集 进行 语义 融合 与 互 操作 的 过 程 中 ,受制 于 相关 
领 下 的 背景 知识 复杂 不 同 实体 之 间 的 语义 边界 模糊 
等 替 观 条 件 的 影响 ,有 必要 在 对 领域 本 体 模型 和 关联 
数 昭 schema 框架 进行 充分 调研 分 析 的 基础 之 上 选取 
针对 性 的 计算 方法 。 同 时 ,文化 遗产 领域 的 知识 结构 
多 锚 性 ,也 使 得 基于 单一 策略 的 计算 方法 难以 全 面 满 
足 数据 集 内 所 有 实体 的 语义 相似 度 计 算 需求 。 基 于 这 
一 背景 ,面向 文化 遗产 领域 的 关联 数据 语义 相似 度 计 
算 应 当 遵循 以 下 思路 :首先 ,应 在 语义 描述 粒度 分 析 的 
基础 上 对 关联 数据 集 进行 模块 化 处 理 ; 其 次 ,应 面向 不 
同 模块 的 内 容 与 结构 特征 选取 相 适 应 的 语义 相似 度 计 
算 方法 ,并 在 此 基础 上 通过 合理 设置 各 个 模块 的 权 值 
系数 以 获取 最 优 的 语义 相似 度 计算 结果 。 


5 结语 


本 文 面向 人 文 计算 研究 范式 兴起 的 背景 下 ,人 文 
学 者 参与 数字 人 文 研 究 过 程 中 对 文化 遗产 领域 数据 集 
的 语义 融合 与 互 操作 需求 ,以 敦煌 壁画 叙 词 表 关 联 数 
据 为 例 ,在 数据 集 语义 描述 粒度 分 析 的 基础 上 提出 了 
一 种 基于 多 粒度 匹配 的 实体 语义 相似 度 计 算 方 法 ,为 
数字 人 文 背 景 下 异 构 人 文 信息 资源 的 数据 互联 与 知识 


算 需 求 与 计算 方法 的 有 机 整合 。 在 实验 部 分 ,本 文 以 
敦煌 壁画 叙 词 表 关 联 数据 中 的 “飞天 ”相关 实体 为 例 ， 
采用 本 文 提出 的 多 粒度 匹配 方法 ,与 当前 具有 代表 性 
的 属性 特征 相似 度 、 标 签 编 辑 距离 相似 度 方法 进行 语 
义 相 似 度 计算 对 比 实验 。 实 验 结果 表明 ,本 文 提出 的 
基于 多 粒度 匹配 的 实体 语义 相似 度 计算 方法 能 够 更 好 
地 适应 敦 烛 壁画 叙 词 表 关 联 数据 领域 背景 知识 复杂 、 
实体 语义 边界 模糊 的 结构 特性 , 相 比 其 他 两 种 基于 单 
一 策略 的 语义 相似 度 算 法 能 够 取得 准确 性 更 优 的 计算 
结果 。 在 未 来 的 研究 中 ,还 可 进一步 将 本 文 提出 的 计 
算 方法 运用 于 文化 遗产 领域 其 他 的 关联 数据 集中 , 通 
过 开展 跨 数 据 集 的 大 规模 语义 相似 度 计算 实验 ,对 不 
同 粒度 下 的 权 值 分 配 、 不 同 算法 中 的 参数 设置 等 技术 
细节 进行 调整 与 优化 。 
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Abstract: | Purpose/significance | With the developing of cultural heritage digitization and humanities compu- 
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fing paradigm, the demand of cultural heritage data resources from scholars in the field of humanities have increasing- 
y highlighted when participating in digital humanities research. The semantic integration and interoperability of 
multi-source and heterogeneous cultural heritage information resources has become a key issue in the construction of 
digital humanities data infrastructure nowadays, and the effective method of entity semantic similarity calculation has 
became an important means to achieve this goal. | Method/process | Based on the analysis of the ontology model and 
data framework of Dunhuang Mural Thesaurus Linked Data, this paper proposed an entity semantic similarity calcula- 
tion method based on the integration of multi granularity matching and weighted calculate, and selected “ Feitian” re- 
lated entities in the dataset as the experimental object to compare the effects of the method proposed in this paper with 
current methods base on attribute characteristic or edit distance in semantic similarity calculation. | Result/conclu- 
sion | The experimental results show that, compareing with the other methods, the entity semantic similarity calcula- 
tion method based on multi-granularity matching can better adapt to the content and structural characteristics of Dun- 
huang Mural Thesaurus Linked Data, and has better performance in the accuracy of calculation. Thus this paper has 
introduced another feasible idea for promoting the data interconnection and knowledge sharing of heterogeneous human 
information resources under the background of digital humanities. 
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